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) Verfahren zur Spracherkennung durch einen Rechner 

) Das Verfahren ermoglieht eine basehleuniota Klassifika- 
tion innorhalb eines Spracherfcennungssystams. Dazu wird 
phonetisches Wissen in Form von Distanzsn zu Lauteinhei- 
tan banutzt, um iterativ die Guta dar Klassifikation zu 
varbassem. Fur einan vorgebbaran Kontaxtgrad wird aine 
minimaia Distanz von Merkmalsvaktor zu vorhandenan Laut- 
einheiten berachnet und in einam nachsten Schritt innarhalb 
etnas vorgebbaren Baraichs um das gefundane Minimum 
Abstande berechnet zu Lautainhaitan mit hoheram Kontaxt- 
grad. SchtieBlich wardan die klasstfiziarten Lautainhaitan zu 
Sprache zusammangasetzt. 
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Bescfareibung 

Die Erfindung betrifft ein Verfahren zur Sprachakennung durcfa 

Spracherkennung beginnt bd der Erf assung ernes Sprachsigiials in Form einer Abtastung und Digitalisienmg. 
5 Es ffAgt eine Merkmalsextrakti n (V rverarbehung) imd eine iOassifikati n (aucfa: Distanzberechnung) des 
V rverarfoeiteten Sprachsignals. Im letzten Sdirttt der Sprachericennung (Suche) werden WcHtmodeUe zugeord- 
net, esergibtsicfa eine erkannteW rtsequenz(si he[l]). 

Die Distanzberechnung steOt den redienintensivsten Sdiritt bd der Sprach rkennung dar. Je nadi Anwen- 
dungsf afl kann dabei der AnteO der benotigten Redienleistung fur die Distanzberechnung tus zu uber 80% des 
10 gesamten Berechnungsaufwands des Spracfaerkenners betragen. 

In [2] ist ein Verfahren zur Distanzberedmung genannt, das gegeniiber der Erfindung den Nacfatetl aufweist 
daB statistisdie Ouster entsprechend statistischtf Verteilungen angeordnet sind» somit die Gute der Spracher- 
kennung direkt von der Anzahl der Ouster abhangt und der Berecfanungsaufwan^ 
Aus [3] sind Hiddra-Markov-ModeDe (HMMs) zur Laut- und WortmodeOierung bekannt. Wdterfain sind in [4] 
15 kontinuierfiche mehrcfimensionaIe» meist nuiltivariate, VerteQungen (z. B. Laf^ace- oder GauB-Verteihuigen) fur 
die M odellierung der Merkmale in^lementiert 

Die Aufgabe der Erfindung besteht darin» ein Verfahren zur Distanzberechnung anzugeben» das eine scfaneBe 
Klassiflkation etnes Mokmalsvektors (mit vorgebbarer Genauigkeit) ermogiicfaL 
Diese Aufgabe wird gemaB den M erkmalen des Patentansprucfas 1 gdost 
20 Zu diskreten Abtastzdtpunkten wird ein Sprachsignal mit einer vorgebbaren Taktrate abgetastet und digitaB- 
siert Zu jedem Abtastzdtpunkt wird das Sprachsignal in einen Merkmalsvektor mit vorigebbarer Dimension 
ahgebildeL Zur Durchfuhrung der Distanzberechnung werden Abst&nde des jewdligen Merkmalsvektors zu 
v<Hgebbaren Mustervektoren bestimmt. 

Die Mustenrektorm steOen unterscfaeidbare Lauteinhetten der ^rache dar. ]ede Lautraiheit verfiigt iiber 
25 einen Kontextgrad, der angibt wie weh der Kontext der Lautdnheit reidit 

Zunadist wird zu ersten Mustervektoren, die Lauteinheiten mit einem vorgebbaren ersten Kontextgrad 
darstellen* jewdis dn Abstand zu dem Merkmalsvektor beredmet Aus all den so beredineten ersten Abstanden 
wird dn erstes Minimum der ersten Abstande ausgewahh. 
Um eine genauere Klassiflkation des Merkmalsvektors vomehmen zu kdnnen, werden in einem n&disten 
30 Sduitt zwdte MustervektoreUp die Lauteinheiten mit einem zweiten Kontextgrad darsteUen, wobd der zwdte 
Kontextgrad grdBer als der erste Kontextgrad ist, inneriialb eines vorgebbaren Bereidis um die durdi das erste 
Minimum klassifizierte Lauteinheit zur Berechnung von zwdten Abstanden herangezogen. FSn zwettes Mini- 
mum der zweiten Abstande klassifiziert eine Lauteinhdt mit einem gegeniiber der zu dem ersten Minimum 
gehdrenden Lauteinhdt hoherem Kontextgrad. 
55 Rdcht die Gute der durchgefOhrten Klassiflkation des Merkmalsvelctors aus, so kann das Verfahren beendet 
werden, indem Sprache aus kiassifizierten Lautdnhdten zusammengesetzt somit erkannt wird. 

Soil eine genauere Klassifikation erfcHgen, so wird nochmals der Kontextgrad derzu untersuchenden Lautein- 
heiten erhdht, und somit in einem vorgebbaren Bereidi um cfie zuletzt das zuletzt klassifiaerte Minimum 
Abstande zu dem Meikmalsvektor beredmet. Diese Iteration kann bdietng oft wiederh<^ werden, um dn 
40 immer besseres Ergebnis zu erhalten. Allerdings genugt dne KlassifDcation mit hohem Kcmtextgrad nicht mehr 
der Forderung nadi einer Echtzeitbedingun& da die Erfadhung des Kontextgrads den Aufwand fur die Berech- 
nung der Klassifikation typisdierweise exponentieU ansteigen laBt 

Eine Wdterbildung des erflndungsgemaBen Verfahrais besteht dariiv bd Verwendung v<mi Lauteinhdten mit 
h5herem Kontextgrad den nachsthoheren Kontextgrad auszuwahlen. 
45 Die Erfindung kann dahingehend weitergebDdet werden, daB zu Beginn des Verfahrens Lauteinheiten mit 
dem Kontextgrad *1* verwendet werden. 

Wetterhin kdnnen als sc^die Lauteinheiten zu Beginn des erfindungsgemaBen Verfahrens Phoneme oder 
Monophone einer Sprache verwendet werden. 
Eine andere WeiterbOdung der Erfindung besteht darin, Diphone oder Triphone oder aus mehreren Phone- 
50 men zusammengesetzte Laute als Lauteinhdten zu verwenden. 

In den Figuren sind Ausfuhrungsbeispiele der Erfindung dargestelh, die im weiteren naher eriautert werden. 
Eszeigen 

Fig. 1 dn Bk>dcdiagramm, das Schritte des erfindungsgemaBen Verfahrens enthah. 
Fig. 2 eine Sldzze> die die Erfindung im zwddimensionalen Merkmalsraum veranschauIichL 
55 In Fig. 1 werden Schritte des erfindungsgemaBen Verfahrens fur die Berechnung der Distanz einer Unterein- 
hdt dargestelh. 

Vektoren werden nachfolgend als kldne fettgedruckte Zeichen oder mit dnem Pfeil, Matrizen als groBe 
fettgedruckte Zdchen dargestelh. 
Gesprodiene Sprache wird abgetastet und in digitalisierter Form einem Redmer yiig?ngHrh gemacht In 
GO Sdiritt la, der Vorverarbeitung, wird demzufolge in regelmafiigen Abstand (z. B. alle 10ms) ein Merkmalsvektor 
X, der das akmeDe Sprachsignal reprasentiert, der Dimensk>n Dk (typische Werte flir die Dimension: 20—64) 
ermittelL 

Worter werden aus Bnheiten modelliert, die erne Abfolge von Zustanden m dnem Hidd n-Maikov-ModeO 
(siehe ausfiihrUche Beschreibung in [3]) darsteQen. Solche Einheiten snid zumeist Phoneme, es kdnnen aber audi 
65 Halbsilben, Silben oder andere Einhdten verwendet werden. Euie Gesamtanzahl von Untereinhdten No, die die 
kleinsten stch untersdiddenden Einhdten von Sprache darstellen, schwankt je nach System und gewOnschto* 
AppGkation (z B. Emzelworterkennung, kontinuierliche Spradie, Sprecherunabhangigkeit) zwischen weniger 
als 100 und mehreren 1000 Untereinhdten Nq. 
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Bei der Distanzberechnung (siehe Fig. 1, Scliritte lb bis IQ geht es damm, fur alle Untereinheiten No 
akustische Distanzen gemaB einer verwendcten modeilierenden VerteOung zu berechnen. Fur jcde Untereinheit 
u werden Nv(u) Verteaimgen zur ModeQierung benutzt, wobei dcli Nt(u) fur jede Untereinheit u unterscheiden 
k^nn Typische Wcrte fur Nv(u) liegen zwischen 1 und lOa Bei Verwendung von GauB-VerteUungen werden 
diese dargestelh als 5 



(1), 



wobei {Ij der Dx-dimensionaie Mittelpunktsvektor und C die Px-dimensionale Kovarianzmatrix der mit j indi- 
zierten GauB-Verteilung gj bezeichnen. 

Die Gesamtverteilung fOr eine Untereinheit u (Summe der GauB-VerteOungen) wird dargestellt durdi go. £s 
handelt sidi dabei um die mit cj gewicfatete Summe der etnzehien Vertdhmgen: 



Nj(u) 



(2) . 



i=l 



(3), 



wobei k eine vorgebbare implementierungsabhangige Konstante ist 

Eine verwendete Nahening geht davon aus» daB die Wahrscheinlichlcdt einer Untereinheit u von der Wahr- 
scheinlichkeit der "besten* (» wahrscheiniichsten) Verteilung dominiert wird. Dies bedeutet, daB |pt-Gleicfaung 
(3) die auBere Summe durch einen max-Operator ersetzt werden kann. Es ist aber immer nodi die Berechnung 
der Wahrscheinlichkeiten aller Verteilungen notwendig» denn erst dann kann der max-Operator ausgewertet 
werden: 
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Es ist Qblicfa, von diagonalen Kovarianzmatrizen der CauBverteilungen auszugehen. bezeichnet dann cfie 
i*te Komponente der Varianz der Verteilung j. Die Wahrscheinlichkeit dafur, daB eine bestinunte Untereinheit u 
auf getreten is^ wenn der beobacfatete Merkmalsvektor x voriiegt» berecfanet sich zu: 2S 




45 



50 



(4) . 

V(j € {l,.-.,Nv(u)}) 

Um die Berechnung des kompiexen Terms hi Gleidiung (4) zu umgehen, wird CHeichung (4) logarithmiert, man 
spricht dann von Distanzen ansteUe von Wahrscheinlidikehen und bezeichnet diese Distanzen mit db(x). Nadi 
Umformen ergibt sich folgende Gleichung zur Berechnung der Distanz der akustisdien Untereinheit u bei 
Vorliegen des betraditeten Merkmalsvektors x: 



65 
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du(x) = miiij" Ki, j + K2,j X 




(5), 



V(j € 



wobei Kij und von der Realisienmg abhang^e vofgebbare Konstanten darsteUen, die einma] on V<mus 
berecfanet werden konnen. 

Ahnlidie Beredmuxigsschemata ergeben sich auch bei Verwendung anderer Verteflongeii, z. Bw der Laplace- 
VerteUung, und schranken das erfmdungsgemaBe Vof aiiren nicht auf die ausgefiihrte Vertdlimgsvariante ein. 

Gieichung (5) wird fur aUe Untereinheiten u ausgewertet Die Gesamtzahl aller Verteihmgen im System fOr 
alle Untereinheiten u sei und berechnet skh zn 



Das bedeixtet* daB alle 10ms (aDe IQms wird ein Merkmalsvektor ersteOt) Nr-mal etn Ps-dimensionaler 
Abstand beredmet wird, wobei Nt bei Systemen ^inscherweise im Bereidi 1000—500 000 KegL Diese Berech- 
nung kann heutzutage von einem handelsQbfidien Redmer (PQ Workstation^ Signa^irozessor) mdit unter 
Knhahimg der Echtzeitbedingung durcfagefufart werden. 

Das erfindungsgemaBe Verfahren zetchnet sidi dadurdi aus, dafi phonetisdies Wissen zur Besdmmung einer 
Untermenge von Reprasentanten herangezogen wird Es findet ein direktes Oustering von Unt^einheiten statL 

Die Erfindung verwendet ab ein primares Kriterium zur Ermitdung einer gee^eten Untermenge zu beredi- 
nender Distanzen das Wissen urn den phonetisdien Kontext der mode]lierten(Spradi-)Seemente hzw. Unterein- 
heiten. 

Zur Eriaotenmg des erfindungsgema&en Verfohrens wird von der Verwendung von Phonemen als Basis-Laut- 
dnheiten fur die Spradierkennung ausgegangen. Das Verfahren ist jedodi auf fur andere Lautemhetten als 
Phoneme reafisierbar. 

Ein QiHsdies Spradierkennungssystem enthalt ca. 40^60 Basis-Lauteinheiten. Bei sokfaen Basis-Lauteinh^- 
tcn handek es sidi um kontextunabhangige Lauteinheiten. Um Spradie genauer kla ssifizteieu zu konnen, 
werden Basis-Lautemheiten in Abhangigkett der vorangehenden und nadifo^enden Basis-Lautdnheiten gebfl- 
deL 

Heutzutage werden Diphone, d h. zwd Phoneme bestimmen die Unter«nheit (ein Nadibarphonem wird zur 
KontextbOdung herangezogenX Triphone, d h. drd Kioneme bestimmen die Untereinheit und Quiiqihone, d h. 
funf Phoneme bestimmen die Unterdnheit, verwendet 

Kontext-abhangige Lauteinheiten werden wie folgt notiert: 

LjCi-l..",i-lM+l» - i+r) (7) 

wobei i einen Zentrallaut maikiert. bei dem 1 Laute im vorangehenden (-Gnken) Kontext und r Laute im 
nachf olgenden ( - rediten) Kontext zur Bestimmung der Unteremheit berudcskditigt werden. Es lieet *<«>tnna f4| 
ein(l+r+l)-Lautvor. 

Durdi diese hier besdiriebene Modeliierung kann sidi die Anzahl der Lauteinheiten mit hoherem Kontext- 
grad m Abhangigkeit der jeweiligen Anwendung auf mehrere 1000 erfaohen, da die Anzahl der versdiiedenen 
theoretisdi mdgfidien Lautdnhdten mit der Potenz der beriidcsiditigten Kontextlange wadist 

Neben den kontext-abhangigen Lautemheiten werden zusatzfidi kontext-unabhangige Lauteinheiten (— 
Basis-Lauteinheiten) implementiert Diese Basis-Lauteinheiten dienen bd "fasdook-ahead'-Methoden zur 
sdmeUen Vorauswahl von Hypothesen in der Sudie nadi einer Klassifikation eines Merkmalsvektors odcr 
werden zur Modeliierung voa Wdrtem herangezogen, wenn wahrend einer Trainmgsphase des Spradierken- 
nungssystems zu wenige Ergebnisse voriagen, um modeOierende Vertdlungen nadi Gleidiune (2) fur die 
detaiUierten Untereinheiten (im weiteren Kontext) zu bestimmen. 

Fur aDe Lauteinheiten (Untereinhdten u) wird ein Kontextgrad Gk bestimmt, der angibt, wie wdt der 
Kontext der jeweiligen Lauteinhdt reidit Fur Basis-Lauteinhdten (kontextunabhangige Unterdnhdten) gik 
^« 1, fur Kphone gflt Gk=2, fur Triphone gilt Gk=3» usw. Fiir kontextabhangige Lautemhdten gih gem§B 



GK-l+r-hl (8X 

In der Erfeidung wird zur Entsdieidung, ob die Distanz einer Lauteinheit genauer fm einem h5heren DetaiDie- 
ningsgrad) bCTechnet werden soU die Distanz der gleichen Lauteinheit im kleineren Kontextgrad (= abstrakte- 
ren Kontext) herangezogen. Das bedeutet, daB zur Entschddung, ob die Distanz fur die Lauteinhdt 



(6) . 
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Ufi-l....,i-ll,i+l,--.i+r) 

explizh berechnet wirdl die Dtstanz fOr einen abstrakteren Laut 

Uhsfi-li-..,i-I|,i+l»"-i+r2) 5 

herangezogen wirdL wobei gilt l2<l r2<r. Der Vortefl liegt darin, daB fur aDe U( . . . X l>^i denen 12<1, r2 <r gflt. 
die Distanz der gleichen abstrakten Unteretnheit Labs zur Entscheidung verwendet werden kann. Demzof Ige 
wird bei der Wahl der abstrakten Lauteinheit bis auf die Basis-Lauteinheiten zuriidcgegrifrea fur die gik 1 » r Ol 

Sodann wird die optimale Distanz d pt aus alien Distanzen der abstrakten Lauteinheiten berecfanet (sidie lo 
Fig.l,Sdirittlc): 



dopt = mjij{dabs,i} e {l, . . • , Nu,abs}) ' 



15 



wobei eine Anzahl der abstrakten Lauteinheiten bezeichnet und Nabs die Anzahl der Verteflungen, die die 
Nuabs abstrakten Lauteinheiten modelliert bezeichnet 

Im Schritt le werden fur Lauteinheiten mit hoherem Kontextgrad die Distanzen expVsat berecfanet wobei die 
Bedingung 20 

d«ubs < dopt + thr (10) 

vorscfareibt dafi innerhalb eines vorgebbaren Bereidis (gekennzetchnet durcfa den vorgebbaren Wert thr) urn 
das nacfa deichung (9) errechnet Minimum dopt abstrakte Lauteinheiten do^ zu einer detailfierterea Klasdfi- 2S 
zienmg des Merkmakvektors herangezogen werden (Schritt Id). 

Fur den vorgebbaren Wert thr kann gehen: thr »const d. h. es wird dne Konstante durcfa Vorberecfanung 
bestimmt oder der Wert thr wird inq>Iizit abhangig von dem augenblicklichen Merkmalsvektor x ausgewahk 
gemaB 

thr = K«hrxdopc (IIX ^ 

wobei Ktfar ein vorgebbarer Wert ist 

Fur alle Lauteinheiten* deren Distanz der abstrakten Lauteinheit nach Gleidiung (11) ni^t innerhalb des 
durch den Wert thr vorgebbaren Bereidis liegt d. h. deren Distanz zu groB ist wird gesetzt: 3S 

d(l4P-U.-..i-lM+l»".i+r)) " d(Utn) (12X 

Somit wird die Distanz der abstrakten Untereinheit gewahlt wodurch die explizite Berechnung der Distanz 
eingespartwird 40 

Die Anzahl der explizit zu beredinenden VerteDungen wird mit Nt bezeichnet wobei Nt^Nv gilt Werden 
nun abstrakte Lauteinheiten zur Entscheidungsfindung nach Gleichung (10) ausgewahit die gleicfazeitig Tefl des 
Spradierkennungssystems sind, wie bspw. die Basis-Lauteinheiten, sind (tie Verteflungen der abstrakten Lautdn- 
heiten Nabs eine Tdlmenge der modellierenden Verteihmgen 

45 

Nabs E Nv (13) • 

Somit gilt: 50 

Ng« = Nabs + Nt<Nv (14X 

Auf diese Weise ist immer sidiergestellt daB nie mehr Verteilungen berecfanet werden mussen» als das 
eigentlidie System beinhaltet da die zur Entsdieidung herangezogenen Lauteinheiten bzw. VerteOungen Teil 55 
des Systems sind. 

GemaB obiger Beschreibung wird also innerhalb des durch den Wert thr vorgegebenen Bereidis wiederum 
ein Minimum der Abstande dopt ermittelt (Schritt It) und, wenn die Gute der Klassifikation ausreicht (Schritt Id), 
das Verfahren beendet indem Lauteinheiten zusammengesetzt werden (Sdiritt Ig) und somit Spradie erkannt 
wird. Ist hingegen die Gute der Klassifikation nodi nicht ausreidiend, so wird zu Schritt le gesprungen und das eo 
Verfahren iteriert 

In Fig. 2 wird beispielhaft die Klassifikation im zweidimensionalen Merionalsraum (zl, x2) veransdiauUcht In 
Fig. 2a sind ein Merkmalsvektor MV, und drei Lauteinheiten LE1» LE2 und LE3 mit demselben Kontextgrad 
dargestellt Za jeder Lauteinheit LEI, LE2 und LE3 wird jeweils eine Distanz dL d2 und d3 berechnet Das 
Minimum aus den Distanzen, hier der Abstand dl, wird gemaB Gleichung (9) ausgewihh. 65 

In Fig. 2b wird urn das ausgewahlte Minimum ein vorgebbarer Beretch gemaB Gleichung (10) gekennzeichnet 
durch dl + thr» bestimmt Im Beispiel liegen auBer der Lauteinheit LEI noch weitere Lauteinheiten LEl-L LEI -2, 
LEI -3 und LEl-4 mit gegenuber Lauteinheit LEI hdherem Kontextgrad innerhalb dieses vorgebbaren Bereidis. 



Fur jede dieser Lauteinhehen L£l-i, LEl-2, LEl-3 und LEl-4 wird jeweils die Distanz bercchnet Aus den 
resuldereaden Distanzen di-l> dl-2p dl-3 und dl-4 wird das Minimum beredmet (wieder nach Oleidiung (9)). 
Das Verfahren kann fortgesetzt iteriert werden» indem um das ausgewahlte Minimum dl-4 wieder ein vorgeU>a- 
rer Bereidi besdmmt wird und innerlialb dieses Bereichs Distanzen zu Lauteinheiten mit haherem Kontextgrad 
als die Lauteinheit LEI -4 bmchnet werden. 
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Patentanspruche 

1. Verfahren zur Spracheikennung durcfa einen Recfaner, 

a) bei dem ein Spradisignal mit einer vorgebbaren Taktrate digitalisiert wird, 

b) bei dem das digitalisierte Sprachsignal zu je einem Abtastzeitpunkt, der durcfa die Taktrate festge- 

ist, in einen Merfcmalsvektor abgebikiet wird, 

c) bei dem erste Abstinde des Merkmalsvektors zu ersten Mustervektoren ennitt A werden, wobei die 
Mustervektoren jeweils eine kleinste unterscfaeidbare Lauteinheit mit einem vorgebbaren Kontext- 
grad, der angibt, wie weit der Kontert einer Lauteinheit reicfat, darsteDezi, 

d) bei dem ein erstes Minimum der ersten Abstande ausgewahlt wird, 

e) bei dem um das erste Minimum ein voigebbarer Bereicfa ausgewahh wird und in dieson Bereich 
zweite Abstande des Moteialsvektors von zweiten Mustervektoren, die jeweik Laoteinhdten mh 
gegenuber den kleinsten unterscheidbaren Lauteinheiten hdherem Kontextgrad darsteDen, bestimmt 
werden, 

f) bei dem ein zwdtes Minimum der arwoten Abstande ausgewahlt wird, 

g) bei dem der Merkmalsvektor durdi die uber das zwdte Minimum erreidibare Lauteinheit klassili- 
ziert wird oder, falls eine genauere KlassifDcation erforderiidi ist, das zwdte Minimum als das eme 
Minimum angenommen und mit Scfaritt e) f ortgefahren wird, 

h) bd dem aus zusammengesetzten klassifizierten Lauteinheiten Spradie erkannt wird. 

2. Verfahren nach Anspnich 1, bei dem im Sduitt e) fur die zweiten Mustervektoren der n&clisth5here 
Kontextgrad gegenQber den ersten Mustervektoren ausgewahh wird. 

3l Verfahren nach Ansprudi 1 oder 2, bei dem die ersten Mustervektoren kontextunabhangige Bnhdten mh 
dem Kontextgrad 1 darstellen. 

4. Verfahren nach einem der Ansprudie 1 bis 3, bd dem als Mustervektoren Phoneme einer Spracfae 
verwendet werden. 

S Verfahren nach einem der Anspruche 1 bis 3, bei dem als Mustervektoren Triphone oner Spradie 
verwendet werden. 

6. Verfahren nach einem der Anspruche 1 bis 3, bei dem als Mustervektoren Quinphone einer Sprache 
verwendet werden. 
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